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摘要 : [目的 /意义 ] 在 线 医 疗 信息 抽取 是 实现 医疗 信息 检索 医疗 信息 推荐 ` 个 人 医疗 健康 提醒 及 警示 、 疾 
病 诊 断 、 公 众 健康 监控 、 药 物 不 良 反应 挖掘 等 服务 的 基础 环节 ,而 医疗 实体 抽取 则 是 在 线 医疗 信息 抽取 的 首要 
工作 。 本 文 拟 解决 传统 医疗 实体 抽取 严重 依赖 于 人 工 特征 提取 且 效 率 低 的 问题 。[ 方法 /过程 ] 以 网 络 文本 为 
FRITS ,首先 对 医疗 实体 类 型 和 医疗 实体 抽取 的 目标 进行 描述 。 将 在 线 医 疗 文本 中 的 医疗 实体 抽取 任务 看 
作 序 列 标注 问题 来 解决 ,通过 对 CNN 模型 和 BiLSTM 模型 基础 理论 的 探讨 ,构建 基于 混合 深度 学 习 模 型 CNN- 
BiLSTM 的 医疗 实体 抽取 框架 。[ 结果 /结论 ] 通过 三 组 对 比 实 验 ,验证 了 本 文 所 使 用 的 CNN-BiLSTM 模型 在 医 


源 实 体 抽取 任务 中 的 有 效 性 。 
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双向 长 短 记忆 模型 ”医疗 实体 


随 着 公众 自我 健康 管理 理念 及 其 医疗 信息 需求 的 
逐渐 改变 ,网 络 信息 资源 中 蕴含 了 大 量 的 医疗 相关 数 
据 = 辣 时 为 了 推进 “智慧 健康 ”的 发 展 ,近年 来 在 线 医 
痒 俏 息 的 相关 研究 也 逐渐 成 为 热点 。 在 互联 网 普及 以 


抽取 在 ACE 会 议 的 推动 下 ,其 研究 深度 和 广度 也 在 不 
断 加 强 。 根 据 MUC 和 ACE 会 议 对 信息 抽取 子 任务 的 
界定 ,医疗 实体 识别 是 在 线 医 疗 信息 抽取 工作 中 的 关 
键 过 程 。 目 前 常用 的 医疗 实体 抽取 技术 分 为 两 类 : 基 


及 移动 App 广泛 应 用 的 今天 ,有 效 的 在 线 医 疗 信息 


于 医疗 词典 和 规则 的 方法 以 及 基于 机 器 学 习 的 方法 。 


取 资 法 对 于 满足 公众 用 户 医疗 信息 需求 、 提 高 医疗 信 
息 服 务 质量 至 关 重 要 。 在 线 医疗 信息 抽取 的 主要 研究 
方 装 是 基于 自然 语言 处 理 和 文本 挖掘 ,从 非 结构 化 或 
平 结构 化 的 医疗 数据 中 挖掘 出 有 价值 的 信息 。 这 种 在 
线 医 疗 文本 是 专业 医疗 文本 和 网 络 文本 的 结合 ,其 与 
临床 文本 在 语言 特征 上 有 本 质 的 差异 性 。 在 线 医 疗 的 
文本 中 ,用户 /患者 描述 事件 或 表达 观点 时 通常 使 用 日 
常用 语 , 且 包 括 大 量 情感 和 观点 类 的 词汇 ,给 相关 信息 
的 检索 统计、 挖掘 等 研究 造成 了 一 定 的 障碍 。 因 此 ， 
信息 抽取 在 在 线 医疗 信息 价值 的 挖掘 中 占有 重要 的 地 
位 。1987 - 1997 年 ,消息 理解 系列 会 议 (message un- 
derstanding conference ,MUC ) 确 认 了 信息 抽取 具体 子 任 
务 的 划分 以 及 不 同 子 任务 的 评测 体系 。1999 - 2008 
E, 自动 内 容 抽 取 (automatic content extraction, ACE ) 评 
测 会 议 也 从 不 同 的 角度 对 信息 抽取 进行 了 研究 ,信息 


By 


基于 医疗 词典 和 规则 的 方法 不 能 对 复杂 的 文本 进行 高 
效 的 处 理 ,只 在 有 限 的 领域 取得 显著 的 成 效 ” ;基于 机 
器 学 习 的 方法 依赖 的 传统 机 器 学 习 模 型 主要 为 隐 马 尔 
科 夫 、 条 件 随 机 场 及 其 调整 改进 模型 ,此 类 模型 很 大 程 
度 上 依赖 于 人 工 提取 的 特征 , 且 限 定 于 特定 的 文本 资 
源 ”。 鉴 于 深度 学 习 在 语音 和 图 像 处 理 等 领域 的 良好 
表现 ,其 在 自然 语言 处 理 领 域 的 理论 研究 近 几 年 也 越 
来 越 受 到 重视 。 为 了 更 好 地 利用 未 标注 的 在 线 医 疗 文 
本 ,使 用 半 监 督 或 无 监督 的 方法 进行 医疗 实体 抽取 ,从 
深度 学 习 的 技术 层面 出 发 进行 中 文 在 线 医 疗 信息 抽取 
研究 ,其 意义 不 仅 在 于 对 已 有 的 医疗 信息 抽取 理论 和 
方法 进行 拓展 ,而 且 具 有 重要 的 实践 价值 。 

本 文 以 网 络 文本 中 在 线 医 疗 实体 抽取 为 研究 目 
标 ,通过 梳理 医疗 实体 抽取 的 相关 研究 理论 ,结合 在 
线 医疗 信息 子 语言 特点 ,明确 了 在 在 线 医疗 实体 抽 
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取 任 务 中 引入 深度 学 习 的 意义 。 文 章 首先 针对 医疗 
实体 抽取 过 程 中 的 相关 问题 做 了 简单 介绍 ,然后 曾 
述 了 混合 深度 学 习 模 型 的 构建 过 程 以 及 网 络 文本 医 
疗 实体 的 抽取 过 程 ,最 后 以 好 大 夫 在 线 医疗 平台 中 
的 文本 为 实验 数据 ,使 用 CNN 模型 .BiLSTM 模型 以 
及 本 文 所 使 用 的 混合 深度 学 习 模 型 CNN -BiLSTM 进 
行医 疗 实体 抽取 ,探讨 CNN-BiLSTM 模型 存在 的 优势 


站 中 的 疾病 问答 信息 ,采用 CRF 模型 首次 进行 了 在 线 
医疗 实体 识别 工作 。 但 CRE 模型 特征 的 选择 容易 
影响 结果 的 准确 性 且 训 练 代价 大 ,涉及 到 关键 技术 和 
核心 模型 的 突破 还 存在 瓶 席 。 传 统 的 机 器 学 习 方 法 在 
对 越 加 复杂 多 样 的 在 线 文本 进行 处 理 时 ,过 分 依赖 于 
已 标注 数据 (训练 数据 ) , 当 文 本 的 特征 增多 时 模型 的 
开销 会 快速 增长 , 且 对 开放 领域 的 信息 进行 处 理 时 其 


以 及 需要 进一步 完善 的 问题 ,以 期 为 提高 在 线 医 疗 
实体 抽取 的 效率 做 出 努力 ,为 医疗 信息 服务 黄 定 良 
好 的 基础 。 


1 相关 研究 


在 常用 的 医疗 实体 抽取 技术 中 ,基于 词典 和 规则 
的 才 法 在 医疗 领域 应 用 范围 较为 广泛 "。 目 前 国际 上 
已 诸多 个 权威 机 构 维护 的 医疗 词典 ,例如 著名 的 ICD 
.UMLS 和 SNOMED CTI0。 在 对 电子 病历 或 临床 
交 环 进行 医疗 实体 识别 时 ,早期 一 般 都 采用 基于 医疗 
的 方式 ,医疗 领域 基于 医疗 词典 进行 医疗 实体 抽 
取 的 典型 工具 有 MedLEE , MedKAT 和 cTAKES 三 种 。 
硫 玛 医疗 词典 是 信息 抽取 中 一 个 非常 重要 的 工具 ,但 
是 贫 使 用 基于 医疗 词典 的 方式 不 能 对 复杂 的 文本 进行 
高 融 的 处 理 , 逐 渐 地 基于 机 器 学 习 的 医疗 实体 抽取 方 
法 这 到 了 越 来 越 多 的 关注 。 
三 基于 机 器 学 习 的 方法 对 医疗 实体 进行 抽取 是 将 医 
辣 壬 体 抽取 任务 转化 成 序列 标注 问题 或 者 分 类 问题 ， 
基 尝 序列 标注 的 方法 进行 医疗 实体 抽取 能 够 考虑 临近 
词 的 标注 信息 ,因此 大 部 分 的 研究 将 医疗 实体 抽取 当 
做 局 列 标注 问题 来 处 理 。 在 基于 机 器 学 习 的 方法 中 ， 
条 件 随 机 场 模 型 (conditional random fields, CRF ) Æ H 
前 进行 医疗 实体 抽取 较为 有 效 的 方法 。 龙 光宇 和 徐 云 
利用 医疗 词典 得 到 医学 术语 的 语义 信息 ,然后 通过 
CRE 结合 这 些 语义 信息 来 识别 疾病 命名 实体 ”。H. 
Liu 等 采用 最 新 的 CRF 思想 ,制定 合适 的 特征 模板 以 
EARRA o EEE E AA 


召回 率 会 明显 下 降 。 为 了 减少 对 特征 工程 的 需求 ,在 
命名 实体 识别 任务 中 ,J. P. C Chiu #1 E. Nichols 提出 
了 使 用 BiLSTM -CNN 架构 自动 检测 字 和 字符 级 特 
qe” 。 随 着 深度 学 习 技 术 研究 的 不 断 深 入 ,其 为 医疗 
实体 抽取 提供 了 新 思路 。 在 信息 抽取 任务 中 , 杨 红 梅 
等 基于 双向 长 短 记忆 模型 实现 了 电子 病历 文本 自动 命 
名 实体 识别 ”。 吴 嘉 伟 等 通过 稀 玻 自 编码 网 络 模型 进 
行 特 征 再 表示 提高 了 信息 抽取 的 召回 率 ”。K. Xu 等 
提出 了 一 种 基于 双向 长 短 记忆 模型 和 条 件 随 机 场 的 Bi 
LSTM -CRF 医学 命名 实体 识别 模型 ,最 后 实验 的 测度 
超过 了 许多 广泛 使 用 的 基线 方法 ""” X. Dong 等 通过 
训练 双向 循环 神经 网 络 进行 中 文 电子 病历 命名 实体 识 
别 ,达到 自动 提取 疾病 记录 和 治疗 方法 等 医学 知识 的 
目的 。 具 有 层次 结构 的 深度 学 习 技 术 可 以 自动 学 
习 处 理 文 本 时 所 需要 的 特征 ,深度 学 习 模 型 在 医疗 实 
体 抽取 领域 的 研究 与 应 用 还 处 在 起 步 阶 段 , 大 部 分 的 
研究 工作 还 在 进行 当中 ,拥有 巨大 的 研究 价值 和 研究 
空间 '”。 目前 ,深度 学 习 在 医疗 实体 抽取 任务 中 主要 
是 以 英文 语 料 为 对 象 ,而 中 文 和 英文 的 本 质 差 别 使 得 
这 些 模 型 并 不 完全 适用 于 中 文 领域 。 本 文 结合 中 文 在 
线 医疗 子 语言 的 特点 ,根据 不 同 深度 学 习 模 型 的 适用 
范围 和 优 缺点 ,提出 基于 CNN -BiLSTM 模型 的 在 线 医 
疗 实 体 抽取 方法 , 拟 解决 传统 的 抽取 方法 严重 依赖 于 
人 工 特征 的 提取 、 时 间 成 本 过 高 和 提取 特征 有 限 等 问 
题 ,如 表 1 所 示 : 


R1 信息 抽取 方法 总 结 


信息 抽取 方法 典型 的 模型 特点 
基于 词典 和 规则 的 方法 MedLEE ,MedKAT \cTAKES 优点 是 准确 率 较 高 ,但 是 召回 率 相对 较 低 
基于 传统 机 器 学 习 的 方法 。 ”条件 随机 场 模型 、 隐 马尔 可 夫 模 型 、 优点 是 在 命名 实体 识别 的 速度 及 识别 的 准确 率 上 有 大 幅 提升 ,但 是 严重 依赖 于 人 工 提 
JET ML 取 特 征 
深度 学 习 技术 卷 积 神经 网 络 ,循环 神经 网 络 、 ”通过 深度 学 习 模型 的 提取 ,获得 的 多 重水 平 的 提取 特征 具有 可 重复 性 ,可 以 在 相似 情 


长 短 时 记忆 网 络 
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境 任务 中 使 用 。 类 似 于 无 监督 数据 集 的 调 


,进而 可 获得 更 多 可 用 信息 


r A 
CI hir aX VE 


在 线 医 疗 实体 抽取 问题 描述 


医疗 实体 类 型 定义 
医疗 实体 抽取 是 进行 在 线 医疗 信息 抽取 的 首要 工 


2.1 


言 息 都 是 清晰 明确 的 ,而 在 在 线 医疗 文本 中 用 户 发 布 
的 信息 中 并 没有 明确 标明 患者、 医护 人 员 以 及 医院 医 
疗 实体 ,结合 在 线 医疗 信息 子 语 言 特 点 ,本 文 在 2b2 


作 , 即 从 在 线 医 疗 文本 中 检测 并 识别 出 具有 特定 意义 
的 医疗 实体 。 美 国 国立 卫生 研究 院 (National Institutes 
of Health, NIH) 资助 的 i2b2 ( informatics for integrating 
biology and the bedside) 会 议 把 常见 的 医疗 实体 分 为 3 
类 :医疗 问题 (medical problems P ) .治疗 (treatments , 
Tr) 和 检查 (tests,Te) ” 。 借 鉴 2p2 对 医疗 实体 的 定 
义 ,本 文 将 i2b2 定义 的 医疗 问题 分 为 疾病 (diseases ) 和 


定义 的 医疗 实体 的 基础 上 增加 医疗 参与 者 partici- 
pants ,Par) 这 一 医疗 实体 类 型 ,并 将 其 分 为 患者 (pa- 
tients) 医务 人 员 (medical personnels ) 医院 (hospitals ) 
三 类 。 综 上 所 述 , 本 文中 的 医疗 实体 具体 分 为 8 类 : 疾 
病 (diseases) .症状 (symptoms) , 2449 ( medicines ) 治疗 
措施 (treatment measures )、 检查 (tests )、 患 者 (pa- 
tients) .医务 人员 (medical personnels ) 、 医 院 ( hospi- 


aol tad tals) ,此 8 类 医疗 实体 的 具体 描述 .标识 符号 以 及 示例 
症状 (symptoms ) 两 类 ;将 i2b2 定义 的 治疗 分 为 药物 = 
如 表 2 所 示 : 
(medicines ) 和 治疗 措施 (treatment measures ) 两 类 。 在 
传统 的 临床 医疗 文本 和 病历 文本 中 ,患者 、 医 生 和 医院 
表 2 在 线 医疗 实体 类 型 及 其 描述 
实体 类 型 实体 类 型 描述 示例 标识 符号 
医疗 问题 (medical 疾病 (diseases) 医护 人 员 给 出 的 疾病 名 称 或 诊断 是 ICD - 10 中 定义 的 疾病 WAR EN ER EE D 


名 综合 征 、 等 术语 


roblems , P) 


treatments , Tr ) 


nih, AR SCZ 
治疗 措施 与 治 
的 医疗 器 械 和 设备 


(treatment measures ) 


检查 (tests ,Te) 


ticipants , Par ) 


患者 医疗 问题 的 群体 


(medical personnels ) 


医院 (hospitals ) 


2.2 医疗 实体 抽取 目标 

本 研究 的 最 终 目标 是 能 够 准确 地 识别 并 抽取 出 在 
线 医疗 文本 中 本 文 定义 的 医疗 实体 类 型 。 为 了 能 够 跟 
国际 医疗 实体 抽取 展现 方式 相同 ,借鉴 i2b2 对 医疗 实 
体 抽 取 输 出 文档 的 要 求 ,定义 输入 文档 和 输出 文档 的 
格式 。 本 研究 对 在 线 医疗 文档 进行 医疗 实体 抽取 是 以 
句子 为 基本 单位 进行 的 ,输出 的 医疗 实体 抽取 结果 结 
构 为 : 


c = “concept text” 


offset || t = “concept type” 
xX (1) 
其 中 e = “concept text” 表 示 在 线 医疗 文档 中 识别 
到 的 概念 实体 短语 ;offset 表示 识别 到 的 概念 实体 短语 
的 起 始 和 结束 的 句 数 和 字数 ;t =“ concept type” 表 示 本 
文 定义 的 8 类 医疗 实体 类 型 之 一 。 


药物 (medicines) 用 于 治疗 或 者 预防 医疗 问题 的 有 目的 地 调节 人 的 生理 机 能 的 


、 商 品名 和 化 学 学 术 名 
疗 或 者 预防 医疗 问题 相关 的 手术 项 目 或 者 疗法 ,包括 相关 


患者 (patients) 是 指 患 有 疾病 或 具有 某 些 症状 的 人 ， 


医务 人 员 是 指 从 事 医 务工 作 中 的 诊断 治疗 ,护理 等 人 员 的 总 称 , 是 治疗 


是 指 以 向 患者 提供 医护 服务 为 
疗 医 疗 问题 以 及 医务 人 员 所 从 属 的 机 构 


阿尔 蒋 海 默 病 


症状 (symptoms) 患者 或 医护 人 员 观 察 得 到 的 患者 身体 或 精神 上 的 异常 表现 竹 吸 困难 、 精 神 萎靡 、 尿 频 、 跟 肤 断 S 


Baty ee CAE AMA M 
药 .Cefixme Capsules 
支架 植 和 术 、 放 射 治疗 呼吸 机 \ 导 TM 


尿 管 等 


为 了 诊断 医疗 问题 而 施加 于 病人 、 体 液 或 样本 检查 措施 或 设备 常规 细菌 培养 .核磁 共振 、 胃 T 


镜 .血压 等 
是 出 现 医疗 问题 的 个 人 某 患 者 RREZ UserID 等 Pa 


KEE FEE APE JR BB MP 


= 


要 目的 的 医疗 机 构 ,是 患者 治 RIE Sh Pe te Be (49 1 3) 、 呼 


吸 内 科 消化 内 科 等 


5 会 
构建 
3.1 


深度 学 习 模 型 CNN-BiLSTM 的 


在 线 医 疗 信息 子 语言 特点 分 析 

文本 结构 、 使 用 的 语言 以 及 语言 特点 对 信息 抽取 
所 使 用 的 技术 和 模型 有 很 大 的 影响 。 临 床 文本 与 在 线 
医疗 文本 中 主要 语义 类 别 的 差异 会 对 医疗 实体 类 型 的 
定义 和 抽取 产生 影响 。 适 用 于 传统 临床 文本 信息 抽取 
的 方法 和 框架 并 不 适用 于 在 线 医 疗 文本 信息 的 抽取 。 
通过 对 本 文 获 取 的 好 大 夫 在 线 平台 的 5 000 篇 文档 进 
行 分 析 ,在 线 医 疗 文本 在 文档 结构 、 句 型 结构 标点 符 
号 使 用 标题 使 用 方面 较为 混乱 和 随意 ,结构 性 和 规范 
性 与 临床 文本 相 比较 较 差 。 表 3 对 临床 文本 和 在 线 医 
疗 文本 的 子 语 言 特点 进行 了 总 结 分 析 ,揭示 了 在 线 医 
疗 文本 在 内 容 \ 语 言 风格 \ 句 子 结构 、 词 类 的 使 用 \ 书 写 
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图 二 情报 三 作 


第 63 卷 第 12 期 2019 年 6 月 
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wid 


习惯 .语义 类 别 6 个 方面 的 子 语言 特点 。 这 些 特点 对 
在 线 医疗 信息 的 抽取 带 来 了 挑战 :在 线 医疗 文本 是 事 
实 性 和 经 验 性 内 容 的 结合 , 且 在 在 线 医疗 文本 中 不 仅 
使 用 表示 身体 部 位 的 形容 词 , 还 包含 表达 用 户 情 感 和 
观点 的 形容 词 。 根 据 提供 的 智能 医疗 服务 的 不 同 ,所 
使 用 的 信息 也 不 同 ,如何 将 事实 性 信息 和 经 验 性 ( 主观 
性 ) 信 息 进 行 分 离 是 在 线 医疗 文本 处 理 领 域 的 关注 点 。 
例如 ,对 在 线 医疗 文本 的 情感 进行 分 析 时 ,描述 事实 型 


环 神经 网 络 ( bidirectional recurrent neural network, 
BRNN ) 的 主要 思想 为 在 时 间 步 为 t+ 时 ,将 序列 数据 分 
别 从 前 后 两 个 方向 输入 到 模型 中 ,使 用 两 个 隐 含 层 保 
存 的 两 个 方面 的 隐藏 信息 进行 计算 , 即 既 考虑 历史 序 
列 元 素 也 考虑 未 来 序列 元 素来 进行 输出 计算 。 双 向 长 
TILA (bi-directional long short term memory , BiL- 
STM) 就 是 把 BRNN 思想 应 用 到 长 短 记忆 模型 中 , 既 解 
决 了 RNN 导数 消亡 问题 ,也 考虑 了 前 后 文本 关键 信 


的 信息 则 需要 被 过 滤 掉 。 鉴 于 在 线 医疗 文本 子 语言 特 

点 及 其 对 文本 处 理工 具 和 技术 的 影响 ,本 文 将 以 深度 

学 习 模 型 为 技术 支撑 ,构建 在 线 医疗 实体 抽取 方法 。 
表 3 ”临床 文本 与 在 线 医疗 文本 子 语言 特点 总 结 


类 上 临床 文本 在 线 医疗 文本 
事实 性 ,证 据 性 信息 事实 性 .经验 性 观点 性 信息 
医疗 领域 专业 语言 日 常用 语 ,包含 部 分 医学 术语 
句 型 较 短 名 型 较 长 ,结构 复杂 
语法 结构 不 规范 
使 用 名 词 频率 相对 较 高 使 用 名 词 频 率 相对 较 低 
使 用 动词 频率 较 低 使 用 动词 频率 较 高 
形容 词 主要 为 形容 身体 ”形容 词 除了 形容 身体 不 同 部 位 词汇 ， 
K 同 部 位 词汇 还 包含 情感 和 观点 类 词汇 
人 称 代词 为 他 、 她 . 某 患者 人 称 代词 丰富 
缩写 缩写 
拼写 错误 几率 低 拼写 错误 几率 高 
对 医学 术语 进行 解释 


习惯 引用 /转载 其 他 文本 


疾病 诊断 治疗 程序 、 
解剖 和 特定 词 


.三 已 有 研究 中 用 来 进行 实体 抽取 的 深度 学 习 模型 主 
有 卷 积 神经 网 络 (convolutional neural network, CNN) 
和 循环 神经 网 络 (recurrent neural network, RNN) ™!, 
CNN 由 6 个 部 分 组 成 ,分 别 是 输入 层 、 卷 积 层 、 激 活 函 
A WHE .全 连接 层 .预测 层 。CNN 能 够 有 效 处 理 自 
然 语言 处 理 中 的 分 类 任务 ,一 般 采 用 反 向 传播 法 则 和 
有 监督 训练 ,通过 随机 初始 化 权 值 的 初 值 对 模型 进行 
和 迭代 来 减少 网 络 误差 ,最 终 当 权 值 集 合 处 于 稳定 状态 
时 进行 收敛 。RNN 可 以 看 作 是 权 值 共享 的 多 层 前 馈 
神经 网 络 , 其 基本 思想 是 神经 网 络 的 隐 含 层 有 回 边 ( 主 
要 利用 序列 信息 ) ,具有 以 下 两 个 特征 :一 是 RNN 模型 
对 序列 中 的 每 个 元 素 执行 相同 的 操作 ,输出 结果 严重 
依赖 于 先前 的 计算 ;二 是 RNN 能 够 对 历史 计算 信息 进 
行 保 存 (记忆 ) ,并 利用 历史 信息 对 当前 的 数据 进行 畏 
助 计算 。RNN 是 单 向 向 前 传播 网 络 , 只 考虑 了 序列 元 
素 中 的 历史 信息 而 没有 考虑 未 来 信息 ,但 是 通常 在 文 
本 处 理 领域 ,历史 信息 和 未 来 信息 同样 的 重要 ,双向 循 
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息 。BiLSTM 在 不 同 的 自然 语言 处 理 任 务 中 的 表现 都 
出 色 , 是 本 文 所 构造 的 用 于 在 线 医疗 实体 抽取 模型 的 
重要 组 成 部 分 。 

CNN 和 RNN/LSTM 等 深度 学 习 模 型 都 能 在 文本 
分 析 任 务 中 取得 一 定 的 成 功 ,但 对 文本 进行 序列 标注 
处 理 时 各 有 优 缺 点 。N. T. Vu 等 5 对 CNN 和 RNN 
在 文本 关系 分 类 上 的 效能 进行 了 比较 分 析 , 认 为 CNN 
在 分 本 分 类 任务 上 的 效能 高 于 RNN ,并 提出 使 用 CNN 
和 RNN 进行 互补 建 模 的 思想 ,即使 用 RNN 对 句子 中 
所 有 单词 的 加 权 组 合 进行 计算 完成 抽取 关系 分 类 需要 
的 特征 短语 。Y. Wen 等 "04 和 H. Adel 等 "使 用 CNN 
-RNN 组 合 模型 完成 了 对 长 句子 的 分 类 。W. Yin 等 
验证 说 明了 在 问答 系统 中 CNN 的 表现 性 能 高 于 
LSTM, Y. N. Dauphin 等 ”将 门 控制 机 制 加 入 到 
CNN 模型 中 ,以 期 望 加 入 门 控 的 CNN 能 够 对 长 句 进行 
更 好 的 处 理 。 而 K. Arkhipenko 等 中 将 CNN 与 LSTM 
对 微 博 情感 分 析 的 性 能 进行 了 对 比 研究 ,结果 表明 
LSTM 的 性 能 优 于 CNN, 
3.3 ”基于 深度 学 习 模 型 的 在 线 医疗 实体 抽取 方法 的 
构建 

通过 对 文献 研究 结果 进行 比较 ,CNN 能 够 对 文本 
的 字 词 层级 的 信息 进行 学 习 和 表示 ,但 仅 能 考虑 有 限 
范围 内 的 前 后 字 词 信息 ;BiLSTM 能 够 对 文本 句子 层级 
的 信息 进行 学 习 和 表示 ,但 其 对 细 粒 度 的 字 词 特征 抽 
取 较 差 , BiLSTM 模型 更 擅长 处 理 序列 标注 问题 。 基 于 
在 线 医疗 信息 子 语言 特点 和 不 同 深度 学 习 模 型 的 适用 
范围 ,选择 适当 的 深度 学 习 模 型 完成 在 线 医疗 信息 抽 
取 的 任务 。 基 于 此 ,本 文 使 用 混合 深度 学 习 模 型 CNN- 
BiLSTM 对 在 线 医疗 文本 中 的 医疗 实体 进行 抽取 ,整体 
框架 见 图 1。 医疗 实体 抽取 的 本 质 是 对 每 个 字 词 进行 
类 型 标注 ,因此 首先 底层 使 用 CNN 模型 对 在 线 医疗 文 
本 词汇 中 表示 身体 部 位 、 药 物 命 名 前 后 级 \ 疾 病 命名 前 
后 级 的 特征 进行 学 习 和 表示 ;其 次 将 CNN 抽取 的 字 词 
特征 作为 BiLSTM 模型 的 输入 ,使 用 BiLSTM 模型 学 习 
每 个 字 词 的 历史 (前 置 ) 信 息 和 未 来 (后 置 ) 信 息 , 进 而 
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bA, HK, 等 .基于 CNN-BiLSTM 模型 的 在 线 医疗 实体 抽取 研究 []]. 图 Pe :105 -113. 


完成 对 当前 词 特征 的 进一步 提取 。 按 照 数据 的 处 理 过 
程 的 流向 ,CNN-BiLSTM 模型 架构 可 以 分 为 以 下 几 个 
部 分 :文本 预 处 理 , 对 文本 进行 分 词 转化 成 词 块 ;@) 
特征 选择 ,选取 能 够 影响 医疗 实体 抽取 效果 的 特征 ;@) 
特征 向 量 模块 ,将 选取 的 特征 转化 成 向 量 作为 输入 (此 
处 需要 使 用 CNN 模型 ) ;由 将 特征 向 量 输入 到 BiLSTM 
层 中 进行 计算 ;@@ 输 出 每 个 词 的 序列 标注 概率 ;(@) 选 取 
最 大 概率 的 标签 作为 此 词 的 标注 ;@O 根 据 标注 结果 完 
成 医疗 实体 抽取 。 
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4 ”基于 CNN BiLSTM 的 在 线 医疗 实体 


抽取 过 程 


4.1 文本 预 处 理 

在 英文 文本 序列 中 可 以 通过 空格 对 单词 进行 划 
分 ,而 中 文 文本 序列 是 以 字 为 单位 ,没有 明显 的 分 词 
符 , 对 文本 进行 处 理 时 需要 使 用 分 词 工具 。 中 文 文本 
分 词 的 效果 能 够 影响 本 模型 对 医疗 实体 抽取 的 性 能 。 
本 文选 取 的 是 Ansj 中 文 分 词 工具 ,此 分 词 工具 是 在 中 
国 科 学 院 ICTCLAS 中 文 分 词 工具 的 基础 上 ,使 用 HMM 
算法 对 其 进行 了 优化 和 改进 ,提高 了 中 文 分 词 的 准确 
率 。 但 由 于 医疗 领域 词汇 的 复杂 性 和 特殊 性 ,为 了 提 
高 分 词 的 准确 率 , 本 文 将 搜狗 输入 法 和 百度 输入 法 中 
的 医学 词 库 添 加 到 Ansj 工具 中 完成 对 在 线 医疗 文本 


的 分 词 。 
4.2 医疗 实体 抽取 的 特征 选择 

在 特征 选取 阶段 ,需要 综合 一 般 文本 实体 抽取 时 
应 考虑 的 特征 和 在 线 医疗 文本 特有 的 一 些 特征 。 本 文 
对 在 线 医疗 文本 中 抽取 出 的 医疗 实体 特征 做 了 以 下 5 
种 分 类 : 
4.2.1 
4.2.2 


词 特征 ” 词 特征 是 指 词语 自 有 的 本 质 特征 。 
词性 特征 ”中 文 汉 字 的 词性 包括 动词 .名 词 、 
形容 词 .副词 代词. 数 词 .量词 .连词 .介词 .助词 . 叹 
词 . 拟 声 词 12 类 。 在 在 线 医疗 文本 中 患者 的 经 验 性 描 
述 中 经 常会 出 现 * 觉得“ 患 有 ”“ 吃 “服用 “ 开 了 ”等 
动词 ,在 这 些 动词 之 后 经 常会 跟着 出 现 疾 病名 、 药 物 名 
等 名 词性 医疗 实体 。 词 性 特征 能 够 为 医疗 实体 的 抽取 
提供 线索 ,本 文 直接 使 用 采用 Ansj 分 词 后 的 词性 。 
4.2.3 ”形态 特征 ”形态 特征 是 指 当前 词语 是 汉字 、 数 
字 英文 或 其 他 。 英 文 特征 是 指 当 前 词 中 是 否 包含 英 
例如 检查 实体 中 的 “ 脑 CT”“X 光 ” 等 。 数 字 特 
征 是 指 当前 词 中 是 否 包 含 数字 ,例如 高 压 120 心跳 90 
等 词汇 。 本 文 直接 采用 Ansj 分 词 后 的 形态 特征 。 


4.2.4 ”前 后 组 特征 ” 词 的 前 后 级 特征 主要 包 售 本文 
定义 的 医疗 实体 中 的 后 级 词 和 身体 部 位 指示 词 两 个 方 


面 。 在 英文 命名 实体 识别 领域 ,经 常会 对 词 的 前 后 级 
特征 进行 利用 , 且 此 方法 被 证 明 是 有 效 的 。 而 中 文 在 
线 医疗 文本 中 的 医疗 实体 也 是 有 一 定 规律 的 ,例如 : 疾 


病 实体 经 常 包含 病 . 炎 . 瘤 、. 症 、 跨 等 后 缀 词 ;症状 实体 
经 常 包含 痛 、 疼 .高 、 血 等 后 级 词 ;检查 实体 经 常 包 合 


压 、 查 、 检 、 镜 等 后 级 词 ;药物 实体 经 常 包 含 药 、 片 、 素 、 
时 . 剂 等 后 级 词 ;治疗 措施 实体 经 常 包含 疗 、 术 、 液 、 架 
等 后 缀 词 ;患者 实体 在 在 线 医疗 文本 中 通常 以 某 患 者 
或 者 人 称 代 词 和 身份 性 的 名 词组 成 ;医护 人 员 实 体 经 
常 包 含 医 生 .护士 .主任 .医师 等 后 缀 ;医院 实体 经 常 以 
医院 为 后 级 。 身 体 部 位 指示 词 是 对 身体 部 位 进行 相关 
描述 的 词汇 ,经 常 在 疾病 名 称 和 症状 描述 中 出 现 。 刁 
体 部 位 指示 词 还 包括 上 、 下 左右 等 描述 方位 的 词 , 方 
位 词 通常 会 与 身体 器 官 词 进行 组 合 。 

4.2.5 上 下 文 特 征 ”上下文 特征 是 指 句子 的 语 境 信 
息 ,在 BiLSTM 中 既 能 对 历史 信息 (句子 中 此 词 之 前 的 
言 息 ) 也 能 对 未 来 信息 (句子 中 此 词 之 后 的 信息 ) 进行 
利用 ,因此 本 文 在 模型 中 并 没有 把 上 下 文 特征 放 在 特 

征 选择 和 特征 向 量 模 块 ,而 是 放 在 BiLSTM 模型 部 分 
进行 处 理 。 

4.3 医疗 实体 抽取 的 feature embedding 处 理 

Feature Embedding 处 理 模块 是 对 特征 选择 模块 所 
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选 特征 进行 向 量化 的 过 程 。 

4.3.1 词 向 量 (word embedding) 词 向 量 是 把 深度 学 
习 相 关 模 型 引入 到 自然 语言 处 理 领 域 的 一 个 关键 的 技 
术 , 本 文选 择 使 用 Word2vec 进行 词 向 量 转 换 , 词 向 量 
最 终 是 由 一 个 矩阵 表示 W e RON ,其 中 V 表示 词 
表 的 大 小 ,d" 表示 词 向 量 的 维度 。 在 此 矩阵 中 ,每 一 
列 都 对 应 着 一 个 词 的 向 量 , 即 W e R~。 使 用 大 规模 
无 监督 学 习 得 到 的 向 量 作为 W" e R** 初始 值 的 效 
果 要 比 使 用 随机 初始 化 的 好 ,但 是 国内 目前 并 没有 对 
医疗 语料库 进行 词 向 量 预 训练 构建 的 初始 值 可 供 选 
择 , 因 此 本 文 将 使 用 随机 初始 化 的 值 完成 词 向 量 的 转 
化 ,随机 向 量 维度 的 初始 值 为 100 维 ,向 量 值 从 [ - 


an t Fp E BEP, IE dim 是 向 量 的 
[21] 


4O 词性 特征 向 量 ， 中文 汉 字 词 性 包含 12 类 , 词 
性 畦 征 则 用 单 维 向 量 表示 。 例 如 名 词 特征 向 量 可 以 表 
7PHL1,0,0,0,0,0,0,0,0,0,0,0], 

433 ”形态 特征 向 量 ， 本 文 只 把 形态 特征 向 量 分 为 
4 COL 数字. 英文 .其 他 。 所 以 汉字 特征 向 量 表示 
WELT ,0 ,0,0] ;数字 特征 向 量 表示 为 [0,1,0,0] ;英文 
牧 备 向 量 表示 为 [0,0,1,0] ;其 他 类 特征 向 量 表示 为 


[8.0,1]。 
4.324 前 后 组 特征 向 量 C.N.D. Santos 和 B. 


Zlfozny'” 的 研究 表明 CNN 能 够 有 效 地 把 词汇 的 前 后 
级 笑 征 抽取 出 来 ,并 编码 成 向 量 形式 表示 。 图 2 为 使 
用 ;ENN 抽取 在 线 医疗 文本 词汇 前 后 缀 特征 的 过 程 图 。 
对 函 每 个 词 将 使 用 一 个 卷 积 层 和 一 个 池 化 层 完成 特征 
的 抽取 。 根 据 CNN 窗口 的 大 小 ,每 个 词 会 有 不 同 个 数 
的 填充 向 量 。 此 处 ,CNN 的 超 参 数 包括 窗口 尺寸 的 大 
小 和 输出 向 量 的 大 小 。 本 文 使 用 随机 初始 化 值 ,向 量 
值 从 [ -a +a ao E BADLA, V BEA 
dim 为 30。 假 设 输入 的 样本 句子 x 由 N 个 词汇 组 成 ,x 
,ws ,与 每 个 词汇 相对 应 的 4 种 特征 
分 别 用 w(1<j 和 4) 表 示 , 其 中 与 表示 第 j RES W 
e RY Seria RERE, WY e R"* (1<j<4) 表 示 
每 个 特征 向 量 矩阵 ,其 中 V 与 Vi 分 别 表示 词 表 的 大 小 
和 各 个 特征 取 值 区 域 的 长 度 ;d, 表示 词 向 量 维度 ;d" 
表示 每 个 特征 向 量 维度 。 最 后 得 到 的 词 向 量 用 mr 表 
示 , 最 后 得 到 的 特征 向 量 用 小 表示 。 最 终 每 个 词 所 对 
应 的 向 量化 表示 为 词 向 量 和 特征 向 量 的 连接 , 即 :x = 


[ w kl k2 k3 e] 
TiTi Ti sri ,Ti o 


= [w W23 W300 
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口 A H 回回 
字 向 量 | | 


卷 积 WIRI 


最 大 池 化 
444 
4 特征 向 量 表示 


图 2 CNN 抽取 词汇 前 后 缀 特征 过 程 


4.4 BiLSTM Æ 

BiLSTM 层 能 够 对 句子 中 的 所 有 文本 序列 元 素 信 
息 进行 利用 ,主要 为 各 个 词汇 之 间 的 相互 关系 信息 ,并 
能 将 这 些 信 息 应 用 于 各 个 词汇 的 处 理 计算 中 。BiL- 
STM 的 输入 即 为 feature embedding 的 输出 。 将 feature 
embedding 层 输出 的 某 些 位 置 值 随机 置 成 0 ,利用 BiL- 
STM 和 前 后 向 计算 公式 ” ,使 用 BiLSTM 从 前 后 两 个 
方向 (历史 信息 和 未 来 信息 ) 输 入 数据 ,使 得 每 个 词汇 
的 输出 都 包含 了 其 整个 句子 中 的 上 下 文 信息 ,进而 得 
到 BiLSTM 层 第 i 个 词 对 应 的 输出 。 
4.5 标签 序列 输出 

本 文采 用 工 A. Ramshaw 等 ”提出 的 BIO 模型 对 
BiLSTM 的 输出 序列 进行 标注 , BIO 模型 将 分 类 问题 转 
化 为 序列 标记 问题 。BIO 模型 的 格式 为 BX,I-X #10, 
其 中 B 代表 开始 (begin) 工 代 表 中 间 (internal) .0 代表 
其 他 (other) 。 采 用 A. Graves 等 提出 的 模型 框架 将 
BiLSTM 模型 中 的 输出 转化 成 在 线 医 疗 实体 识别 类 别 
标签 的 评分 。 


5 基于 CNNBiLSTM 的 在 线 医疗 实体 


抽取 实验 


5.1 实验 数据 集 

由 于 目前 国内 没有 标准 的 中 文 在 线 医 疗 文本 语 料 
库 可 用 于 实验 研究 ,因此 本 文 将 根据 自 建 的 语料库 完 
成 对 在 线 医 疗 实体 抽取 的 任务 。 以 好 大 夫 在 线 医疗 平 
台 为 数据 源 ,抽取 5 000 篇 在 线 医 疗 文档 作为 本 文 在 
线 医 疗 信息 抽取 的 实验 数据 集 。 表 4 是 对 在 线 医 疗 实 


体 抽取 实验 数据 的 具体 描述 。 将 5 000 篇 在 线 医 疗 文 
档 按 照 3:1 的 比例 划分 为 训练 集 和 测试 集 。 训 练 集 数 
据 包含 在 线 医疗 文档 3 750 篇 , 共 包 含 157 638 AX 
本 。 测 试 集 数 据 包 含 在 线 医疗 文档 1 250 篇 , 共 包 含 
43 897 句 文本 。 本 文选 择 深 度 学 习 框 架 TensorFlow 进 
行 深度 学 习 模 型 处 理 ,深度 学 习 模 型 通过 Python 编程 
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表 4 在 线 医 疗 信息 抽取 实验 数据 描述 


训练 集 3 750 篇 157 638 句 
测试 集 1 250 篇 43 897 句 


5.2 在 线 医疗 实体 抽取 实验 结果 及 分 析 

实验 以 抽取 好 大 夫 在 线 医 疗 文本 中 的 疾病 症状 、 
药物 .治疗 措施 检查 、 患 者、 医务 人 员 、 医 院 8 类 医疗 
实体 为 目标 。 本 实验 使 用 随机 初始 化 的 值 完成 词 向 量 
的 转化 ,随机 向 量 维度 的 初始 值 为 100 维 ,向 量 值 从 


[ -05; +a geg TË E A BEDLI; CNN 的 超 参数 
包括 窗口 尺寸 的 大 小 和 输出 向 量 的 大 小 ,也 使 用 随机 


lasted, mH - 2, + 条] 范围 内 随机 抽 


N 


HOOI 3 750 篇 训练 数据 集 完成 对 深度 学 习 模型 参 
Be 


的 训练 ,使 用 训练 完成 的 深度 学 习 模 型 对 1 250 


篇 测试 数据 集 进行 3 组 医疗 实体 抽取 对 比 实 验 :中 第 
一 组 仅 使 用 CNN 模型 进行 在 线 医 疗 实体 抽取 ;@ 第 二 
组 仅 使 用 BiLSTM 模型 进行 在 线 医疗 实体 抽取 ;G@) 第 
三 组 使 用 本 文 所 选用 的 CNN -BiLSTM 模型 进行 在 线 医 
疗 实体 抽取 ,将 CNN 抽取 的 在 线 医 疗 文本 特有 的 前 后 
级 特征 输入 到 BiLSTM 模型 完成 医疗 实体 标注 。 

同样 ,由 于 目前 国内 没有 中 文 在 线 医疗 文本 中 医 
疗 实体 抽取 的 标准 语料库 ,不 能 提供 可 以 进行 统计 的 
每 个 文本 中 正确 的 医疗 实体 个 数 , 且 由 于 在 本 实验 中 
在 线 医疗 文本 数量 大 ,对 抽取 的 医疗 实体 正确 总 数 是 
通过 随机 抽样 后 进行 统计 计算 得 到 的 。 本 实验 从 8 类 
医疗 实体 类 型 中 分 别 随机 抽取 50 .100 150 个 样本 点 ， 
对 每 个 样本 点 与 原文 档 进行 人 工 检 查 对 比分 析 , 得 出 
每 个 医疗 实体 样本 点 的 平均 准确 率 后 再 按 此 准确 率 计 
算 所 抽出 的 正确 的 医疗 实体 的 个 数 。 

三 组 模型 进行 医疗 实体 抽取 的 实验 结果 如 表 5 所 示 : 


表 5 使 用 CNN 模型 .BiLSTM 模型 .CNN-BiLSTM 进行 医疗 实体 抽取 的 结果 


实验 模型 医疗 实体 med shh we 准确 率 召回 率 F 值 

实体 总 数 实体 总 数 实体 总 数 
《 ?用 CNN 模型 疾病 10 907 9 983 9 487 0. 95 0. 87 0.93 
《行医 疗 实体 抽取 实验 症状 29 372 26 724 20 162 0.75 0.69 0.74 
J 药物 7 086 6 800 5 968 0. 88 0. 84 0.87 
m 治疗 措施 4977 3 769 2 968 0.79 0.60 0.74 
检查 6 962 6 632 5 732 0. 86 0. 82 0. 86 
患者 5 962 5 960 5 900 0.99 0.99 0.99 
医护 人 员 6 984 6 980 6 706 0.96 0.96 0.96 
= 医院 1 968 1 963 1 902 0.97 0.97 0.97 
CS AEH BiLSTM 疾病 10 907 10 102 9 682 0.96 0. 89 0.94 
GAETE 症状 29 372 27 125 22 098 0.81 0.75 0. 80 
药物 7 086 6 918 6 329 0.91 0.89 0.91 
治疗 措施 4977 4 316 3 829 0.89 0.77 0. 86 
检查 6 962 6 712 6 112 0.91 0. 88 0.90 
患者 5 962 5 962 5 921 0.99 0.99 0.99 
医护 人 员 6 984 6 981 6714 0. 96 0. 96 0.96 
医院 1 968 1 965 1 909 0.97 0.97 0.97 
第 三 组 使 用 CNN -BiLSTM 疾病 10 907 10 502 10 313 0.98 0.95 0.97 
模型 进行 医疗 实体 抽取 症状 29 372 28 125 25 843 0.92 0. 88 0.91 
药物 7 086 7 001 6 729 0.96 0.95 0.96 
治疗 措施 4977 4518 4 196 0.93 0. 84 0.91 
检查 6 962 6 854 6 451 0.94 0.93 0.94 
患者 5 962 5 962 5 931 0.99 0.99 0.99 
医护 人 员 6 984 6 982 6 724 0.96 0.96 0.96 
医院 1 968 1 968 1 912 0.97 0.97 0.97 


从 表 5 中 的 实验 结果 中 可 以 看 到 第 三 组 基本 词 向 
+ 词性 特征 + 形态 特征 + CNN 词 前 后 级 特征 + BiL- 


au 
出 


STM 抽取 结果 好 于 第 二 组 仅 使 用 BiLSTM 模型 进行 医 
疗 实体 抽取 的 结果 ;第 二 组 仅 使 用 BiLSTM 模型 进行 
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医疗 实体 抽取 结果 好 于 第 一 组 仅 使 用 CNN 模型 进行 
医疗 实体 抽取 的 结果 。 证 明 本 文 所 选用 的 基于 CNN- 
BiLSTM 模型 能 够 有 效 地 对 医疗 实体 进行 抽取 ,与 其 他 
两 组 实验 相 比 ,CNN -BiLSTM 模型 能 够 在 疾病 .症状 、 
药物 .治疗 措施 .检查 5 个 医疗 实体 上 有 良好 的 表现 。 
其 在 症状 和 治疗 措施 两 个 医疗 实体 类 型 上 表现 更 
佳 ,准确 率 、 召 回 率 以 及 下 值 都 有 显著 的 提高 。 但 在 患 
者 .医护 人 员 以 及 医院 三 个 医疗 实体 上 三 组 实验 抽取 
效果 没有 明显 区 分 ,三 组 实验 在 这 三 类 医疗 实体 类 型 
上 抽取 的 准确 率 、 召 回 率 和 Ff 值 都 达到 了 96% 以 上 ， 
其 至 患者 实体 抽取 的 三 组 实验 的 评估 指标 都 为 99% , 
分 析 其 主要 原因 为 在 线 医疗 实体 中 患者 的 书写 较为 规 
则 , 即 我 .我 + 关系 名 词 . 某 患者 ,医护 人 员 、 医 院 两 个 
医疗 实体 也 有 相似 的 特征 ,因此 在 此 三 种 医疗 实体 上 
的 畏 取 效果 较 好 。 

OO 通过 实验 数据 结果 发 现在 识别 的 8 类 实体 中 , 除 
去 中 者 ,医护 人 员 、 医 院 三 类 医疗 实体 ,药物 和 疾病 的 
讽 列 效果 最 好 ,准确 率 召回 率 和 了 值 三 个 评估 指标 都 
远 隐 超过 其 他 类 型 的 医疗 实体 。 其 次 是 检查 和 治疗 措 
施 - 测 取 效果 最 差 的 为 症状 。 主 要 原因 是 因为 药物 名 


秘 各 疾病 名 称 一 般 比 较 固定 , 并 且 用 户 在 输入 药物 和 
se i 息 时 格式 相对 规整 。 而 对 症状、 治疗 措施 、 
abe vat 上 相 对 较 差 , 主要 原因 是 用 户 在 对 此 种 类 型 


的 区 疗 实体 进 和 THERET EWE MED oR, BU PRE A A 
; eee 


在 Health2. 0 背景 下 在 线 平台 中 拥有 海量 的 医疗 
相关 数据 ,虽然 存在 在 线 医疗 平台 中 的 医疗 知识 的 质 
量 参差 不 齐 等 问题 。 但 随 着 公众 自我 健康 管理 意识 的 
改变 , 越 来 越 多 的 用 户 在 网 络 上 对 医疗 内 容 进行 交互 ， 
需求 增加 的 同时 也 产生 了 大 量 的 有 价值 的 信息 。 为 了 
更 好 地 向 患者 、 公 众 以 及 医护 人 员 提 供 高 质量 的 医疗 
服务 ,高 效 的 在 线 医疗 信息 抽取 是 实现 各 种 医疗 信息 
服务 的 基础 。 本 文 从 深度 学 习 的 技术 层面 出 发 进行 中 
文 在 线 医疗 实体 抽取 研究 , 旨 在 提高 在 线 医疗 实体 抽 
取 的 效率 ,解决 传统 医疗 实体 抽取 严重 依赖 人 工 特征 
提取 的 弊端 ,从 而 为 深度 挖掘 在 线 医疗 数据 价值 提供 
有 力 的 技术 支持 。 本 文选 用 的 CNN-BiLSTM 混合 深度 
学 习 模 型 在 在 线 医 疗 实体 抽取 任务 中 取得 了 良好 的 表 
现 ,但 在 构建 模型 和 数据 处 理 的 过 程 中 ,本 文 的 研究 还 
存在 不 足 之 处 :中 在 进行 医疗 实体 抽取 时 并 没有 考虑 
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指 代 消解 任务 ;@ 本 文 根 据 已 有 的 研究 对 向 量 的 维度 

进行 选择 ,采用 随机 的 方式 对 深度 学 习 模型 的 参数 进 

行 处 理 ,但 并 没有 进一步 分 析 不 同 参数 对 混合 深度 学 

习 模 型 在 网 络 文本 医疗 实体 抽取 效果 中 的 影响 ;@@ 未 

将 在 线 医 疗 数据 与 传统 临床 数据 进行 结合 使 用 ,提高 

医疗 知识 的 真实 性 和 准确 性 。 电 在 本 文 的 概率 估计 环 

境 中 ,没有 对 CTC 和 CRE 等 方法 进行 具体 说 明和 比 

较 。 期 望 在 后 续 的 研究 中 对 以 上 的 不 足 之 处 进行 进 

步 改 进 和 完善 。 
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Abstract: [ Purpose/ significance | Online medical information extraction is the basic link to achieve medical infor- 
mation retrieval, medical information recommendation, personal medical health reminder and warning, disease diagnosis, 
public health monitoring, drug adverse reaction mining and other services, while medical entity extraction is the primary 
work of online medical information extraction. This paper aims to solve the problem that traditional medical entity extrac- 
tion relies heavily on artificial feature extraction and the problem of low efficiency. [ Method/process | Taking network 
text as the research object, this paper firstly describes the type of medical entity and the target of extraction of medical en- 
tity. Online entity extraction task in medical text was considered a sequence labeling problem to solve, the paper discussed 
the basic theories of BiLSTM model and the CNN model, and built a model based on hybrid deep learning CNN - BiLSTM 
medical entity extraction framework. | Result/conclusion | At last, the effectiveness of the CNN-BiLSTM model in the 
medical entity extraction task was verified through three comparison experiments. 
medical 
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